دسترسی به مجموع وب سایت
نمونه یک – عدم دسترسی به آحاد وبسایت
در فیض در خط نخستین نمونه تحت با درج * کلیه ربات های موتورهای کاوش را خطاب قرار میدهیم و در خط دوم با درج / به عدم خزش و ایندکس کل نشانی های دامنه اشاره میکنیم. براین اساس امر تحت یعنی: هیچیک از موتورهای کاوش مجاز به خزیدن وب سایت شما آموزش سئو مشهد نباشند.
User-agent: *
Disallow: /
نمونه دو – دسترسی به مجموع وب سایت
امر تحت برعکس فرمان بالا میگویید همگی رباتهای موتورهای کاوش به همه نشانیهای تارنما آموزش سئو در مشهد دسترسی دارا هستند.
User-agent: *
Disallow:
نمونه سه – عدم دسترسی به دایرکتوری خاص
فرمان ذیل بهاین معناست که ربات گوگل به فایل blog و کلیه زیرپوشههای blog دسترسی ندارد. درواقع عدم دسترسی هم مشتمل بر نشانی mizfa.com/blog و هم مشمول نشانیهای بهمانند mizfa.com/blog/example می شود. دراین وضعیت سایر رباتها بهجز ربات گوگل دسترسی بدین دایرکتوری را داراهستند.
User-agent: googlebot
Disallow: /blog
نمونه چهار – حق تقدم ربات ها
به عبارتیطور که گفتیم موتورهای کاوش ممکن میباشد تعداد رباتهای متعددی برای مفاد خاص داشته باشند برای همین حق تقدم هم برای آن ها اصلی میباشد. درصورتیکه در فولدر robots.txt دستوراتی را درج کرده باشید که چندین بلاک متفاوت آن ها برای یک ربات (خزنده) راستگو باشد، ربات موتور کاوش مدام دستوری را که بهطور بدیهیخیس به آن ربات خاص اشاره مینماید تعیین کرده و دستورها به عبارتی قسمت را اعمال خواهد کرد. به عنوان مثالً فرض فرمائید چنانچه فولدر robots.txt همچون امر تحت یک بلاک منحصر Googlebot و یک بلاک اختصاصی Googlebot-Video وجود داشته باشد. دراینحالت در حالتیکه ربات عکس گوگل (Googlebot-Image) وارد وب سایت شما گردد، میان این بلاکها از اولین تبعیت خواهد کرد و درحالتی که ربات ویدئو گوگل (Googlebot-Video) وارد وبسایت خواهد شد، از بلاک دومین تاسی خواهد کرد و امرها بلاک اولین را نادیده گرفته چراکه بلاک دومین برای آن در حق تقدم میباشد.
User-agent: Googlebot
Disallow: /Photo
User-agent: Googlebot-Video
Allow: /blog
نمونه پنج – Regular Expression
شما می توانید از کلمات منظم (Regular Expression) هم برای به کار گیری در اوامر پوشه robots.txt به کار گیری نمایید. اما این لغت ها منظم به صورت قانونی دراین پوشه تعریفوتمجیدنشدهاند اما اکثر رباتهای دارای اسم و رسم در عالم از لغت ها منظم نیز امان مینمایند. از جملهً در فرمان نیز اشارهگردیده که همه رباتها به فولدرها با پسوند pdf که در فایل (دایرکتوری) test وجود داراهستند، نباید دسترسی داشته باشند.
User-agent: *
Disallow: /test/*.pdf$
نمونه شش – گزینش استثنا برای دسترسی به محتوای دایرکتوری
هم اکنون قصد داریم پاره ای درباره وردپرس سخن بزنیم و یک فولدر robots txt برای وردپرس به صورت باصرفه گردیده و مطلوب ساخت و ساز کنیم. امر ذیل که در بخش اعظمی از وبسایتهای وردپرس به کار گیری میگردد بدین معناست که مجموع رباتها به فولدر wp-admin دسترسی نداشته باشند اما به پوشه admin-ajax.php که دراین فولدر میباشد دسترسی پیدا نمایند. اما بودن اینگونه دستوراتی در فولدر robots.txt ضرری هم ندارد هر چندین ربات بضاعت داخل شدن به فضا ادمین وردپرس را ندارد اما غلط در کدنویسی هم از سمت گوگل و هم از سمت ما به طور طبیعی قابلیتپذیر میباشد. چنانچه دقت کرده باشید ما درین نوشتهعلمی یک توشه از کیورد User-agent استعمال کردیم و بعد 2 خط امر وارد کردیم، شما می توانید به تعداد دلخواه اوامر مورد نیاز را در هر خط وارد فرمائید.
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
نمونه هفت – نادرست رایج
یکی از دیگر از امرها رایج و خطا از حیث یک کارشناس seo در پوشه robots.txt وردپرس که در اکثری از تارنماهای پر اسم و رسم اهل ایران استعمال میگردد کدهای پایین هستند. مخلوق شخصاً در هیچیک از تارنماهای دارای اعتبار فرنگی که دارنده سیستم رئیس محتوا وردپرس میباشند اینگونه کدهایی را پیدا نکردم. عدم دسترسی به wp-includes که در آن چند پوشههای اصلی مثل جی کوئری میباشد سبب میشود وبسایت به آن شکلی که بایستی برای موتور کاوش اکران دهد، خروجی نگیرد. وب سایتهای مثل یوآست، نیل پتل، searchengineland و دهها تارنما پر اسم و رسم وردپرس که در سوژه seo مالکنظرهای جهانی میباشند از اینگونه دستوراتی که منجر عدم دسترسی به فولدرهای wp-includes می شود به کار گیری نمیکنند، حتی تارنما یوآست دراین نوشتهی علمی اشارهکرده اینگونه دستوراتی خطا میباشد و سبب ساز بسته شدن رباتها به بعضا فولدرها می شود که برای بهینه سازی وبسایت خوشایند وجود ندارد.
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
[box type=”info” align=”” class=”” width=””]نکته: در نمونه فوق disallow کردن /wp-includes/ را تحت عنوان خطا رایج معرفی کردهایم، خیر /wp-admin/. درج /wp-admin/ در پوشه robots.txt وردپرس یک طریق پیشفرض میباشد و ترجیح دادیم در هرمثال آن را در اختیار بگذاریم. (ولی Disallow کردن /wp-admin/ ورژنای وجود ندارد که بشود برای همگی سایتها پیچید و تماماً بستگی به تارنما دارااست)[/box]
نمونه هشت – عدم دسترسی به آدرسی با کاراکتر خاص
فرمان پایین زمانی کاربرد داراست که شما در نشانیهای خویش کاراکتری مانند ? را داشته باشید چراکه گاهی به جهت خطاها فنی در وب سایت، نوشتهیعلمی شما ممکن میباشد با نشانیهای متفاوت و با مقادیر گوناگون تکثیر پیدا نماید. به همین خواسته فرمان تحت را به صورت موقت درج می کنید تا رباتها نشانیهای دارنده کاراکتر نشان سؤال را ایندکس نکنند.
User-agent: *
Disallow: /*?
در نمونه تحت با درج $ تأکید می کنیم که در حالتیکه در انتهای آدرسی نشانه پرسش (?) بود، آن نشانی بایستی Disallow خواهد شد. در سود نمونه تحت یعنی هیچ رباتی اذنی خزش نشانیهایی که با ? آحاد می گردند را ندارند. دراین وضعیت نشانیهایی که با ? به اتمام نمیرسند در لحاظ گرفته نمیشوند.
User-agent: *
Disallow: /*?$
درحالتی که درپی نمونه های بیشتری میباشید نوشتهعلمی Robots.txt Specifications گوگل هم می تواند برای شما موثر باشد.